Extraction de relations dans les documents Web

نویسندگان

  • Rémi Gilleron
  • Patrick Marty
  • Marc Tommasi
  • Fabien Torre
چکیده

Résumé. Nous présentons un système pour l’inférence de programmes d’extraction de relations dans les documents Web. Il utilise les vues textuelle et structurelle sur les documents. L’extraction des relations est incrémentale et utilise des méthodes de composition et d’enrichissement. Nous montrons que notre système est capable d’extraire des relations pour les organisations existantes dans les documents Web (listes, tables, tables tournées, tables croisées).

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Extraction of temporal relations between clinical events in clinical documents (Extraction des relations temporelles entre événements médicaux dans des comptes rendus hospitaliers) [in French]

RÉSUMÉ Le défi i2b2/VA 2012 était dédié à la détection de relations temporelles entre événements et expressions temporelles dans des comptes rendus hospitaliers en anglais. Les situations considérées étaient beaucoup plus variées que dans les défis TempEval. Nous avons donc axé notre travail sur un examen systématique de 57 situations différentes et de leur importance dans le corpus d’apprentis...

متن کامل

Structured Indexing Model for Cross-Language Information Retrieval

In recent digital library systems or World Wide Web environment, parallel corpora are used by many applications (Natural Language Processing, machine translation, terminology extraction, etc.). This paper presents a new cross-language information retrieval model based on the language modeling. The model avoids query and/or document translation or the use of external resources. It proposes a str...

متن کامل

Extraction et validation par croisement des relations d'une ontologie de domaine

Face à de grandes quantités de documents web, notre objectif est d’extraire et de valider semi-automatiquement des relations d’un domaine. Dans l’état de l’art, l’extraction des relations a été faite soit par une approche statistique, une approche linguistique ou une approche hybride. De plus, l’intérêt a été toujours porté sur un voire deux types de relations. A contrario, notre objectif est d...

متن کامل

Extraction de structures macroscopiques dans des grands graphes par une approche spectrale

RÉSUMÉ. Dans de nombreux domaines dont le Web est un exemple paradigmatique, la croissance continue de la taille des graphes de relations mis en jeu nécessite, préalablement à l’application d’algorithmes de fouille ou de visualisation spécifiques, la décomposition des graphes en leurs principales composantes “ macroscopiques ”. Les méthodes spectrales consistent à plonger le graphe dans un espa...

متن کامل

Sous-graphes de cooccurrences pour la détection de thématiques dans un corpus de taille moyenne

RÉSUMÉ. Ce papier aborde la question de la classification non supervisée de documents, dans un contexte de veille sur le Web (corpus de taille moyenne). Notre but est d’assister le veilleur dans deux tâches : 1. dégager des thématiques à partir du corpus ; 2. ranger chaque texte dans une ou plusieurs de ces thématiques. Nous proposons une approche linguistique, reposant sur les plus proches voi...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2006